Skip to main content

Data Scientist - Books, Links, Papers, Tools, Projects,

on the way to prepare & study for new job, new trends after the post web 2.0 era. I still think about what should I do, study, research , blah.. blah ... to be a Data Scientist , ya truly science job.


In the trend where the data generated from massive users, tons of data is everywhere. Blog, Facebook, YouTube, Twitter, ...
We have to deal with them everyday. Your physical brain is designed to processing a lot of news, information, work ,,.. at same time for filter what is useful information , the knowledge you should capture and then the Wisdom (http://www.systems-thinking.org/dikw/dikw.htm)
=>Stress, overloaded, ... or the limit of biological brain.


On the way to implement my idea "My Second Brain" project http://code.google.com/p/my-second-brain/


http://www.infogineering.net/data-information-knowledge.htm
As the name, it should help me processing tons of email, blogs, RSS , local news to find the keywords , the trends. That can save me time manually reading, classifying , tagging, the key information. So I can focus all my energy to do cool things, making decisions to improve my skills, also  my career.,
to change the world, at least I should change my life first, and then share them for all.




First, how to extract the content of local news, and rank the best keywords. ==> http://code.google.com/p/boilerpipe/



The boilerpipe library provides algorithms to detect and remove the surplus "clutter" (boilerplate, templates) around the main textual content of a web page.
The library already provides specific strategies for common tasks (for example: news article extraction) and may also be easily extended for individual problem settings.


Secondhttp://incubator.apache.org/opennlp/

OpenNLP is an organizational center for open source projects related to natural language processing. Its primary role is to encourage and facilitate the collaboration of researchers and developers on such projects.
OpenNLP also hosts a variety of java-based NLP tools which perform sentence detection, tokenization, pos-tagging, chunking and parsing, named-entity detection, and coreference using the OpenNLP Maxent machine learning package.

Thirdhttp://lucene.apache.org/java/docs/index.html
Apache Lucene(TM) is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly any application that requires full-text search, especially cross-platform.


Forthhttp://mahout.apache.org/
The Apache Mahout™ machine learning library's goal is to build scalable machine learning libraries.

Fifth, the Google Cloud & some tools
Hooking to browsing job, http://code.google.com/chrome/extensions/overview.html. Private cloud storage, cheap and cool, the Gmail https://mail.google.com/

Sixth, the Jetty, how your personal service running http://jetty.codehaus.org/jetty/ , http://code.google.com/p/i-jetty/

Seventh, mobile way how information is collected and consumed, http://www.phonegap.com/about
http://www.livestream.com/facebookeducation/video?clipId=pla_e86b0c30-8796-4b54-8c52-d43440f84068

Eighth, finally, visualization your personal information http://mbostock.github.com/protovis/ ,http://thejit.org/ , https://github.com/mbostock/d3

The big picture in one photo
http://en.wikipedia.org/wiki/DIKW

Comments

Popular posts from this blog

Netty Cookbook - free ebook for Java Developer

Introduction Netty.io is a popular open source library that greatly simplifies the development of network applications on top of the JVM.  It abstracts the burden to deal with tedious low level details and allows you to concentrate on your business logic instead.  It is used by high profile companies like Red Hat, Twitter or Facebook and designed from the ground up to handle high throughput at low latency, even with thousands of connections at the same time. In this book, you are going to build both client and server using netty best practices, which are communicating with each other in a completely asynchronous fashion.  We are going to explore the netty pipeline, how you can reuse existing protocol handlers and how to write your own. Source code for book  https://github.com/trieu/netty-cookbook Table of Contents Chapter 1: Communicating in Asynchronous World with Netty (15 pages) Introduction Recipe 1.1 Building an asynchronous TCP server and client Recipe 1.

Vì sao chúng ta cần ứng dụng Dataism cho đời sống

Dataism là một triết lý cho rằng dữ liệu là nền tảng của thực tại.  Theo triết lý này, dữ liệu là thứ tạo ra mọi thứ, từ các sự kiện trong thế giới thực đến suy nghĩ và cảm xúc của con người. Trong bối cảnh cuộc cách mạng công nghiệp 4.0 và sự phát triển mạnh mẽ của công nghệ thông tin. Tên gọi "Dataism" được đặt ra để mô tả một quan điểm cho rằng dữ liệu, đặc biệt là dữ liệu số và thông tin, chính là một nguyên tắc lớn trong tự nhiên và xã hội. Nguyên gốc của Dataism không thể được liên kết chặt chẽ với một cá nhân hay tổ chức cụ thể, nhưng một số tác giả và nhà nghiên cứu nhất định đã đóng góp vào việc phát triển và mô tả triết lý này. Một số tác giả nổi tiếng trong lĩnh vực này bao gồm: Yuval Noah Harari: Tác giả của cuốn sách nổi tiếng "Sapiens: Lược sử loài người" và "Homo Deus: Lược sử tương lai", Harari đã đề cập đến khái niệm Dataism trong việc mô tả sự tiến hóa của con người và xã hội.  https://dataethics.eu/humanism-dataism-future-scenario/ Wiki

Các lý thuyết tâm lý học cổ điển về động lực sống của con người

Hôm nay, mình viết 1 bài post tóm tắt theo kiến thức cơ bản về tâm lý học, theo những gì mình đã đọc + kinh nghiệm sống của cá nhân mình.  sự thật thú vị là Sigmund Freud là thầy của Carl Jung và Adler. Điểm chung:  cả 3 Bác đều tập trung nghiên cứu về các nguyên lý cơ bản mà tâm trí, ý thức của con người hoạt động.  Bản chất là các dữ liệu trong bộ não, ở trạng thái vô thức ảnh hưởng trực tiếp đến cách con người nhận thức về thế giới xung quanh họ, bao gồm cả đạo đức, cách suy nghĩ, cảm xúc và ý chí.  Một người không thể hành động mà không có 1 động lực tác động trong suy nghĩ của họ, nó phải có nguyên nhân. Hầu hết các nguyên nhân nằm trong mode "vô thức", bạn rất ít khi tự nhận ra chúng  Điểm khác biệt và đặc trưng: 1) #SidmundFreud  mô hình tâm lý của Freud tập trung vào  1.1 cõi vô thức con người,   1.2 tình dục và động lực sinh sản là năng lượng chính trong cõi vô thức 1.3 các chấn thương tâm lý nhưng bị ý thức kiềm chế lâu ngày 1.4 các ham muốn (như ham muốn tình dục)